智能论文笔记

Understanding Clinical Trial Reports: Extracting Medical Entities and Their Relations

Benjamin E. Nye , Jay DeYoung , Eric Lehman , Ani Nenkova , Iain J. Marshall , Byron C. Wallace

分类：自然语言处理

2020-10-07

关于比较治疗效果的最佳证据来自临床试验，其结果在非结构化的文章中据报道。医疗专家必须手动提取文章中的信息以告知决策，这是耗时和昂贵的。在这里，我们考虑（a）从描述临床试验（实体识别）的全文物品中提取治疗和结果的端到端任务，（b）推断前者的报告结果（关系萃取）。我们为此任务介绍了新数据，并评估最近在自然语言处理中获得类似任务的最先进结果的模型。然后，我们提出了一种新的方法，激励了通常介绍了如何呈现这些纯粹数据驱动的基线的试验结果。最后，我们对该模型进行了一定的评估，并具有非营利性寻求鉴定可能重新用癌症的现有药物，显示出端到端证据提取系统的潜在效用。

translated by 谷歌翻译

Fine-grained Population Mapping from Coarse Census Counts and Open Geodata

Nando Metzger , John E. Vargas-Muñoz , Rodrigo C. Daudt , Benjamin Kellenberger , Thao Ton-That Whelan , Ferda Ofli , Muhammad Imran , Konrad Schindler , Devis Tuia

分类：机器学习 | 计算机视觉

2022-11-08

Fine-grained population maps are needed in several domains, like urban planning, environmental monitoring, public health, and humanitarian operations. Unfortunately, in many countries only aggregate census counts over large spatial units are collected, moreover, these are not always up-to-date. We present POMELO, a deep learning model that employs coarse census counts and open geodata to estimate fine-grained population maps with 100m ground sampling distance. Moreover, the model can also estimate population numbers when no census counts at all are available, by generalizing across countries. In a series of experiments for several countries in sub-Saharan Africa, the maps produced with POMELOare in good agreement with the most detailed available reference counts: disaggregation of coarse census counts reaches R2 values of 85-89%; unconstrained prediction in the absence of any counts reaches 48-69%.

translated by 谷歌翻译

SPICE, A Dataset of Drug-like Molecules and Peptides for Training Machine Learning Potentials

Peter Eastman , Pavan Kumar Behara , David L. Dotson , Raimondas Galvelis , John E. Herr , Josh T. Horton , Yuezhi Mao , John D. Chodera , Benjamin P. Pritchard , Yuanqing Wang

分类：机器学习

2022-09-21

机器学习潜力是分子模拟的重要工具，但是由于缺乏高质量数据集来训练它们的发展，它们的开发阻碍了它们。我们描述了Spice数据集，这是一种新的量子化学数据集，用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子，二聚体，二肽和溶剂化氨基酸的构象。它包括15个元素，带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3（bj）/def2-tzVPPD理论水平以及其他有用的数量（例如多极矩和键阶）上计算出的力和能量。我们在其上训练一组机器学习潜力，并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的，准备使用潜在功能用于分子模拟的宝贵资源。

translated by 谷歌翻译

Robust machine learning segmentation for large-scale analysis of heterogeneous clinical brain MRI datasets

Benjamin Billot , Colin Magdamo , Steven E. Arnold , Sudeshna Das , Juan. E. Iglesias

分类：计算机视觉

2022-09-05

每年都会在医院中获得数百万个大脑MRI扫描，这比任何研究数据集的规模都要大得多。因此，分析此类扫描的能力可以改变神经成像研究。然而，由于没有自动化算法可以应对临床采集的高度可变性（MR对比度，分辨率，方向等），因此它们的潜力仍未开发。在这里，我们提出了Synthseg+，这是一个AI分割套件，首次可以对异质临床数据集进行强有力的分析。具体而言，除了全脑分割外，SynthSeg+还执行皮质细胞，颅内体积估计和自动检测故障分割（主要是由质量非常低的扫描引起的）。我们在七个实验中证明了合成++，包括对14,000张扫描的老化研究，在该研究中，它准确地复制了在质量更高的数据上观察到的萎缩模式。 Synthseg+公开发布是一种现成的工具，可在广泛设置中解锁定量形态计量学的潜力。

translated by 谷歌翻译

Light curve completion and forecasting using fast and scalable Gaussian processes (MuyGPs)

Imène R. Goumiri , Alec M. Dunton , Amanda L. Muyskens , Benjamin W. Priest , Robert E. Armstrong

分类： (统计)机器学习

2022-08-31

明显大小的时间变化（称为光曲线）是望远镜在长时间内捕获的感兴趣的观察统计。光曲线提供了空间域意识（SDA）目标（例如对象识别或姿势估计）作为潜在变量推理问题等目标的探索。与较高的精确仪器相比，来自货架上商业架子（COTS）摄像机的地面观测仍然很便宜，但是，有限的传感器可用性与嘈杂的观察结果相结合，可能会产生可能难以建模的gappy时间序列数据。这些外部因素混淆了对光曲线的自动开发，这使光曲线预测和外推成为应用的关键问题。传统上，使用基于扩散或基于示例的方法解决了图像或时间序列的完成问题。最近，由于学习复杂的非线性嵌入方面的经验成功，深度神经网络（DNNS）已成为首选工具。但是，DNN通常需要大量的培训数据，而这些数据不一定在查看单个卫星的光曲线的独特功能时可用。在本文中，我们提出了一种新的方法，可以使用高斯工艺（GPS）预测光曲线的缺失和未来数据点。 GPS是非线性概率模型，可推断后验分布在功能上并自然量化不确定性。但是，GP推理和培训的立方缩放是其在应用中采用的主要障碍。特别是，单个光曲线可以具有数十万个观测值，这远远超出了单个机器上常规GP的实际实现极限。因此，我们采用MUYGP，这是一种可扩展的框架，用于使用最近的邻居稀疏和局部交叉验证的GP模型的超参数估计。 muygps ...

translated by 谷歌翻译

HTML版本

Present and Future of SLAM in Extreme Underground Environments

Kamak Ebadi , Lukas Bernreiter , Harel Biggie , Gavin Catt , Yun Chang , Arghya Chatterjee , Christopher E. Denniston , Simon-Pierre Deschênes , Kyle Harlow , Shehryar Khattak

分类：机器人

2022-08-02

本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果，报道了地下大满贯的现状。特别是，本文有四个主要目标。首先，我们审查团队采用的算法，架构和系统；特别重点是以激光雷达以激光雷达为中心的SLAM解决方案（几乎所有竞争中所有团队的首选方法），异质的多机器人操作（包括空中机器人和地面机器人）和现实世界的地下操作（从存在需要处理严格的计算约束的晦涩之处）。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节，这些系统通常会从技术论文中省略。其次，我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三，我们概述了我们认为是基本的开放问题，这些问题可能需要进一步的研究才能突破。最后，我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表，并构成了研究人员和从业人员的有用资源。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

LAMP 2.0: A Robust Multi-Robot SLAM System for Operation in Challenging Large-Scale Underground Environments

Yun Chang , Kamak Ebadi , Christopher E. Denniston , Muhammad Fadhil Ginting , Antoni Rosinol , Andrzej Reinke , Matteo Palieri , Jingnan Shi , Arghya Chatterjee , Benjamin Morrell

分类：机器人

2022-05-26

在未知和大规模的地下环境中，与一组异质的移动机器人团队进行搜救，需要高精度的本地化和映射。在复杂和感知衰落的地下环境中，这一至关重要的需求面临许多挑战，因为在船上感知系统需要在非警官条件下运作（由于黑暗和灰尘，坚固而泥泞的地形以及自我的存在以及自我的存在，都需要运作。 - 类似和模棱两可的场景）。在灾难响应方案和缺乏有关环境的先前信息的情况下，机器人必须依靠嘈杂的传感器数据并执行同时定位和映射（SLAM）来构建环境的3D地图，并定位自己和潜在的幸存者。为此，本文报告了Team Costar在DARPA Subterranean Challenge的背景下开发的多机器人大满贯系统。我们通过合并一个可适应不同的探针源和激光镜配置的单机器人前端界面来扩展以前的工作，即LAMP，这是一种可伸缩的多机前端，以支持大型大型和内部旋转循环闭合检测检测规模环境和多机器人团队，以及基于渐变的非凸度的稳健后端，配备了异常弹性姿势图优化。我们提供了有关多机器人前端和后端的详细消融研究，并评估美国跨矿山，发电厂和洞穴收集的挑战现实世界中的整体系统性能。我们还发布了我们的多机器人后端数据集（以及相应的地面真相），可以作为大规模地下大满贯的具有挑战性的基准。

translated by 谷歌翻译

Loop Closure Prioritization for Efficient and Scalable Multi-Robot SLAM

Christopher E. Denniston , Yun Chang , Andrzej Reinke , Kamak Ebadi , Gaurav S. Sukhatme , Luca Carlone , Benjamin Morrell , Ali-akbar Agha-mohammadi

分类：机器人

2022-05-24

多机器人大满贯系统在受GPS污染的环境中需要循环封闭以维护无漂移的集中式地图。随着越来越多的机器人和环境大小，检查和计算所有循环闭合候选者的转换变得不可行。在这项工作中，我们描述了一个循环闭合模块，该模块能够优先考虑哪个循环闭合以根据基础姿势图，与已知信标的接近性以及点云的特性进行计算。我们在DARPA地下挑战和许多具有挑战性的地下数据集中验证该系统，并证明该系统能够生成和保持低误差的地图。我们发现，我们提出的技术能够选择有效的循环封闭，与探空量解决方案相比，与没有优先级排序的基线版本相比，中位误差的平均值减少了51％，中位误差的平均误差和平均值减少了75％。我们还发现，与处理四个半小时内每个可能的循环封闭的系统相比，我们提出的系统能够在一小时的任务时间内找到较低的错误。可以找到此工作的代码和数据集https://github.com/nebula-autonomy/lamp

translated by 谷歌翻译

The CAMELS project: public data release

Francisco Villaescusa-Navarro , Shy Genel , Daniel Anglés-Alcázar , Lucia A. Perez , Pablo Villanueva-Domingo , Digvijay Wadekar , Helen Shao , Faizan G. Mohammad , Sultan Hassan , Emily Moser

分类：人工智能 | 机器学习

2022-01-04

制定了具有机器学习模拟（骆驼）项目的宇宙学和天体物理学，通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真，2,049个n-body和2,184个最先进的流体动力模拟，在参数空间中采样巨大的体积。在本文中，我们介绍了骆驼公共数据发布，描述了骆驼模拟的特性和由它们产生的各种数据产品，包括光环，次麦，银河系和空隙目录，功率谱，Bispectra，Lyman - $ \ Alpha $光谱，概率分布函数，光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录：与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据，并包含143,922个快照，数百万光环，星系和摘要统计数据。我们提供有关如何访问，下载，读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。

translated by 谷歌翻译